Taller Intervalos de Confianza y Pruebas de Hipótesis ----------------------------------------------------- **Importar datos:** .. code:: r america=read.csv("america.csv", sep = ",", dec = ".") asia=read.csv("asia.csv", sep = ",", dec = ".") str(america) str(asia) .. parsed-literal:: 'data.frame': 43 obs. of 3 variables: $ X : int 14 16 18 20 22 36 58 64 80 82 ... $ SALESORG : Factor w/ 1 level "AMER": 1 1 1 1 1 1 1 1 1 1 ... $ NETAMOUNT: num 61392 18545 65825 24076 332 ... 'data.frame': 77 obs. of 3 variables: $ X : int 5 7 9 17 23 27 31 37 41 43 ... $ SALESORG : Factor w/ 1 level "EMEA": 1 1 1 1 1 1 1 1 1 1 ... $ NETAMOUNT: num 62724 152239 111828 35605 6081 ... **Tamaño de muestras:** .. code:: r nx=nrow(america) ny=nrow(asia) alpha=0.05 p_alpha=qnorm(alpha) #probabilidad de la normal **Medias y desviaciones estándar:** .. code:: r media_x=mean(america$NETAMOUNT) media_y=mean(asia$NETAMOUNT) sd_x= sd(america$NETAMOUNT) sd_y= sd(asia$NETAMOUNT) **QQ-plot:** .. code:: r qqplot(america$NETAMOUNT, asia$NETAMOUNT) abline(0,1) # las muestras parecen provenir de la misma distribución, # podemos asumirlas como normales .. image:: output_8_0.png :width: 420px :height: 420px La función ``t.test`` de la libreria ``stats`` se utiliza para calcular intervalos de confianza para la media y diferencia de medias, con muestras independientes y pareadas. **Para una población:** .. code:: r print(t.test(x=america$NETAMOUNT, conf.level=0.95)$conf.int) .. parsed-literal:: [1] 43338.84 65191.48 attr(,"conf.level") [1] 0.95 **Para la diferencia de medias:** Se requiere definir mínimo los siguientes argumentos: ``x``, ``y``, ``paired=T`` (si son datos pareados), ``paired= F`` (si nos son pareados)- ``var.equal``: indica que las varianzas son desconocidas y diferentes, si la varianzas se pueden considerar iguales se coloca ``var.equal=TRUE`` **conf.level:** .. code:: r print(t.test(x=america$NETAMOUNT, y=asia$NETAMOUNT, paired=FALSE, var.equal=FALSE, conf.level = 0.95)$conf.int) .. parsed-literal:: [1] -19302.818 8539.797 attr(,"conf.level") [1] 0.95 **Intervalo de confianza unilateral para la media:** Para modificar la cola de intervalo se cambia el argumento ``alternative=less`` (si se quiere cola izquierda) o ``=greater``\ (para la cola derecha). .. code:: r print(t.test(america$NETAMOUNT, alternative = "less", conf.level = 0.95)$conf.int) .. parsed-literal:: [1] -Inf 63371.61 attr(,"conf.level") [1] 0.95 **Intervalos de proporciones:** ¿Cuántas ventas superan los 55.000 USD en america? .. code:: r exito= nrow(subset(america, NETAMOUNT >= 55000)) total= nrow(america) p_muestra= exito/total .. code:: r print(prop.test(x=exito, n=total, conf.level=0.95)$conf.int) .. parsed-literal:: [1] 0.2940528 0.5999197 attr(,"conf.level") [1] 0.95 Si se quiere realiza la diferencia se proporciones los argumentos ``x`` y ``n`` se deben colocar como vectores; por ejemplo: ``x=c(80,50)``, ``n=c(500, 1000)``. Si se cambia el argumento ``alternative``, se cambia la lateralidad: ``alternative=c("two.sided", "less", "greater")``. Pruebas de hipótesis: ~~~~~~~~~~~~~~~~~~~~~ **Media** :math:`\mu` **de una población normal:** .. math:: H0 : \mu =50000 .. math:: H1 : \mu <> 500 Para esta hipótesis debe colocarse el argumento ``alternative= "two.sided"`` .. code:: r t.test(america$NETAMOUNT, alternative='two.sided', conf.level=0.95, mu=54261) .. parsed-literal:: One Sample t-test data: america$NETAMOUNT t = 0.00076833, df = 42, p-value = 0.9994 alternative hypothesis: true mean is not equal to 54261 95 percent confidence interval: 43338.84 65191.48 sample estimates: mean of x 54265.16 **Intervalo para comparación de varianzas prueba F:** .. code:: r print(var.test(america$NETAMOUNT, asia$NETAMOUNT, conf.level = 0.95)$conf.int) .. parsed-literal:: [1] 0.4913745 1.4438581 attr(,"conf.level") [1] 0.95 **Prueba de hipótesis para una proporción:** Asumiremos una proporción poblacional del 50% ya que no contamos con un estudio previo. .. math:: H0: P=0.5 .. math:: H1: P \neq 0.5 .. code:: r prop.test(exito, total, p =0.5,alternative = c("two.sided"), conf.level = 0.95, correct = TRUE) .. parsed-literal:: 1-sample proportions test with continuity correction data: exito out of total, null probability 0.5 X-squared = 0.37209, df = 1, p-value = 0.5419 alternative hypothesis: true p is not equal to 0.5 95 percent confidence interval: 0.2940528 0.5999197 sample estimates: p 0.4418605 **Prueba de hipótesis para las diferencias de medias:** .. math:: H0: \mu_x - \mu_y=40000 .. math:: H1: \mu_x - \mu_y \neq 40000 .. code:: r t.test(x=america$NETAMOUNT, y=asia$NETAMOUNT, alternative="two.sided", mu=40000, paired=FALSE, var.equal=TRUE, conf.level=0.95) .. parsed-literal:: Two Sample t-test data: america$NETAMOUNT and asia$NETAMOUNT t = -6.297, df = 118, p-value = 5.386e-09 alternative hypothesis: true difference in means is not equal to 40000 95 percent confidence interval: -19652.919 8889.898 sample estimates: mean of x mean of y 54265.16 59646.67 **Prueba de hipótesis para diferencias de varianza:** .. code:: r var.test(x=america$NETAMOUNT, y=asia$NETAMOUNT, alternative = "two.sided", null.value = 1, conf.level = 0.95) .. parsed-literal:: F test to compare two variances data: america$NETAMOUNT and asia$NETAMOUNT F = 0.8247, num df = 42, denom df = 76, p-value = 0.5012 alternative hypothesis: true ratio of variances is not equal to 1 95 percent confidence interval: 0.4913745 1.4438581 sample estimates: ratio of variances 0.8247037 Taller: ~~~~~~~ Responda las siguientes preguntas haciendo uso de los mismos datos, y argumente su respuesta. 1. Indique si se puede establecer con un 90% de confianza que las ventas promedio de bicicletas en Asia son de 19500 USD. 2. Vamos a asumir que las muestras de Asia y América son pareadas, por tanto, borraremos las ultimas filas en Asia que no cuentan con su respectivo par en América: ``asia_par=asia[-c(44:77),]`` Para que ambas muestras quedarán con 43 datos. Calcule el IC para las muestras pareadas e indique las diferencias con el intervalo con muestras independientes. 3. Se puede decir que un nivel del 90% de confianza para las ventas de bicicletas en Asia superarán los 45000 USD. 4. El director financiero de la regional de Asia le pide comprobar con un nivel de significancia del 10%, si las ventas medias son inferiores a 30.000 USD donde incurrirá en pérdidas. 5. Argumente si las muestras pareadas de las regiones de Asia y América pueden ser menores de 50000 USD a un nivel de significancia del 95%.